БАЙЕСОВСКИЙ ПОДХОД В РЕАЛИЗАЦИИ АЛГОРИТМА
АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ ЗВУКОВ СВЯЗНОЙ РЕЧИ
В.Н.Игнатова
Санкт-Петербургский государственный университет
Abstract — The report deals with parts our work for making investigations on automatic recognition of sounds which are separated from the connected speech. This paper describes the basic working hypothesis concerned with multimodality distribution of spectrogramms for one and the same sound. The primary emphasis is being given to application of Bayesian Approach for realizing the last stage of algorithm automatic recognition of speech sounds, i.e. the stage is to classify the sounds, their modifications and announcers as well.
Все разнообразие спектрограмм одного и того же звука мы пытаемся описать с помощью статистической модели.
Практика исследований показывает, что распределения спектрограмм для одних и тех же звуков в произношении разных дикторов различны. Следовательно, здесь не может идти речь об одномодальности распределений. Кроме того, спектральная картина звука меняется в зависимости от окружающих его звуков, которые тем или иным образом оказывают влияние на его модификацию. Учитывая все это, мы все разнообразие спектрограмм каждого звука разбиваем по дикторам на группы, которые, в свою очередь, разбиваются далее, скажем, на звукотипы, могущие выступать в качестве эталонов, и т.д. Все это может быть представлено схематически в виде дерева (рис.1).
Рис.1. Дерево спектрограмм звука.
Известно, что распределение спектрогамм одного звукотипа для одного диктора имеет один мод. Это характеризует четкое наличие некоторой типовой спектрограммы, а распределение спектрограмм звукотипа для одного диктора может быть описано многомерным нормальным распределением (в общем случае с зависимыми компонентами). Итак, мы характеризуем распределение спектрограмм звука суммой нормальных распределений и таким образом аппроксимируем действительное распределение. Число слагаемых определяется количеством дикторов и звукотипов. Правильность такой модели, которая представляется достаточно правдоподобной, может быть проверена по результатам распознавания с помощью алгоритма, вытекающего из этой модели.
Исходя из статистической трактовки задачи распознавания, содержанием обучения при принятой модели описаний является оценка средних и ковариационных матриц элементарных нормальных распределений, составляющих законы распределений спектрограмм для отдельных звуков.
Классификация должна проводиться по максимуму апостериорной вероятности фонемы при условии неизвестной спектрограммы звука.
Моделирование алгоритма на ЭВМ. Весь вводимый в машину звук на протяжении всего времени звучания
T разбивается на интервалы одинаковой длительности мсек, которые перекрываются. Длительность участков перекрытия мсек. На всей временной длине T звука будет(1)
интервалов продолжительностью
. Их может быть любое число L(l=1,2, …,L).На этапе обучения мы останавливаться не будем. Заметим только, что здесь обрабатывается каждая модификация каждой фонемы в произношении каждого из дикторов. В результате мы получаем эталоны звуков в виде средних значений автокорреляционной функции сигнала и ковариационных матриц
(2)(в частности только дисперсий). Все эталоны перфорируются с тем, чтобы вводить их в память машины на следующем этапе – этапе распознавания.
Вводим в память машины эталоны, полученные на этапе обучения. Затем в машину вводится сигнал, принадлежность которого к какому-либо из классов требуется определить. Обработка сигнала ведется таким же образом, как на этапе обучения.
Мы характеризуем распределение распознаваемого звука нормальным законом вида:
(3)
где
z – фонема, p – ее модификация (оттенок), q – диктор,,
- элемент обратной матрицы (2), - определитель матрицы (2).Но формула (3) не удобна для программирования . Поэтому представляется более удобным вычислить сначала
(4)
И затем уже при помощи стандартной подпрограммы получаем значение
. Классификация состоит из трех этапов.1. Классификация звука (т.е. классификация, получаемая независимо от диктора, произносящего звук, и независимо от модификации, характеризующей оттенок гласного).
Для принятия решения о принадлежности одного отсчета текущего описания звука к тому или иному классу нужно найти по Байесу
(5),где
z – звук, q – диктор, k – звукотип; p(q) и p(k) – вероятности диктора и звукотипа соответственно; – вероятность описания при условии звука z и диктора q; – вероятность описания при условии звука z, диктора q, звукотипа k; – текущее описание, , которое требуется классифицировать.Можно считать, что дикторы
p(q) = const и звукотипы равновероятны p(k) = const, тогда критерий (5) запишется в виде (6)Распознаваемый звук
относится к тому классу z, для которого достигается максимум вероятности .Согласно критерию (5) производим текущую классификацию реализации звука. Это позволяет объективно оценить отношение различных участков звука к основным фонемам.
На следующих двух этапах распознавания производится более тонкое различение предъявленных к распознаванию звуков.
2. Классификация звука и диктора. Здесь производится сложение вероятностей по модификациям. Ответом распознавания является пара индексов (z,q), указывающая звук и диктора. Эта пара индексов удовлетворяет критерию
(7)
Классификация 2 позволяет объективно оценить отношение различных участков распознаваемого звука к фонемам и дикторам.
3. Классификация звука, его модификации и диктора. Этот этап заключается в указании наиболее вероятного элементарного нормального закона, который порождает наблюдаемое описание . Здесь критерий распознавания имеет вид
(8)
Эта классификация позволяет объективно оценить отношение различных участков звука к основным оттенкам (звукотипам) фонем с указанием на индивидуальную принадлежность произносящего.
Для реализации критериев распознавания (5) – (8) следует вычислить величины
(9)
где
- определитель ковариационной матрицы , - элемент обратной матрицы .В формуле (9) при величинах
, , индексы x,q,k для удобства записи опущены. Величины суть компоненты неизвестного описания , которое требуется распознать.При программировании удобнее сначала найти
, а затем вычислять значение вероятности .В формулах (2) – (9) все векторы
нормированы по длине. Мы исходили из того, что интенсивность произношения не влияет на разборчивость звука и результат распознавания. Наиболее помехоустойчивой является амплитудная нормализация вида , когда все концы векторов располагаются на единичной сфере.Таким образом, как при обучении, так и при распознавании мы пользовались нормированными текущими спектрограммами звука, эквивалентно заданными совокупностью величин
(10)
Именно эти величины составляют вектор
во всех формулах (2) – (9).Предложенный алгоритм был проверен при автоматическом распознавании ударных гласных (“а”, “о”, “у”) русского языка, выделенных из слов связной речи в произнесении трех дикторов.
Алгоритм обеспечил 94% распознавания для “о” и 97% - для “а” и “у” .
Представляется, что сходными приемами может быть осуществлено первичное распознавание и других звуков связанной речи, в том числе и согласных.
Site of Information
Technologies Designed by inftech@webservis.ru. |
|